%	\chapter{方差分析}
	\section{统计模型}
	实际工作中常会遇到比较多个总体期望是否相等的问题。比如说某厂三条生产线，生产同一个产品，共享同一套工艺，问产品的质量/平均有效时间是否相同？于是我们称所比较的生产线为因子，因子所处的状态称为水平。比如生产线是第几条？就是生产线这个因子的三个水平。用大写字母表示因子，用角标表示水平。
	
%	\paragraph{统计模型}
	如果所考察的因子只有一个，称其为单因子试验。设因子$A$有$r$个水平$A_1,\cdots,A_r$，在每一水平下考察的指标可以看作一个总体，所以现在共有$r$个总体。假定
	\begin{enumerate}
		\item 每一个总体服从正态分布
		\item 每一个总体的方差相同
		\item 每一个总体中抽取的样本互相独立
	\end{enumerate}
	由此要比较各个总体的期望是否一致。设第$i$个总体的期望为$\mu_i$，那么作为一个假设检验问题，其原假设和备择假设为
	\begin{equation}
	H_0:\mu_1=\mu_2=\cdots,=\mu_r,\quad H_1:\exists\ i,j\ s.t.\ \mu_i\neq\mu_j
	\end{equation}
	当$H_0$为真时，$A$的$r$个水平的均值相同，这时称因子$A$的各水平间无显著差异，即因子$A$不显著；反之则称因子$A$显著。用于检验这种假设的统计方法称为方差分析。
	
	\begin{definition}[随机误差]
	从各个总体中抽取样本，设从第$i$个总体获得容量为$m_i$的独立同分布样本$Y_{i1},\cdots,Y_{im_{i}},i=1,\cdots,r$，其观察值就是$y_{i1},\cdots,y_{im_{i}}$。我们称
	\begin{equation}
	\epsilon_{ij}=y_{ij}-\mu_i
	\end{equation}
	为随机误差
	\end{definition}
	
	根据随机误差的定义，我们有
	\begin{equation}
	y_{ij}=\mu_i+\epsilon_{ij}
	\end{equation}
	称此式为数据结构式，也就是说，来自期望为$\mu_i$的总体的观察值$y_{ij}$可以看作是其期望$\mu_i$与随机误差叠加而产生的。由于$Y_{ij}\sim N(\mu_i,\sigma^2)$，所以$\epsilon_{ij}\sim N(0,\sigma^2)$。
	
	\begin{definition}[一般平均和主效应]
		我们称各个总体期望$\mu_i$的加权平均
		\begin{equation}
		\mu=\frac{1}{n}\sum_{i=1}^{r}m_i\mu_i=\frac{\sum_{i=1}^{r}m_i\mu_i}{\sum_{i=1}^{r}m_i}
		\end{equation}
		为一般平均。其中$n$是总的样本数。称
		\begin{equation}
		a_i=\mu_i-\mu,\quad i=1,\cdots,r
		\end{equation}
		为因子$A$第$i$水平的主效应，简称为$A_i$的效应。
	\end{definition}

	显然，因子$A$各个水平的主效应的加权平均是0。另外，根据定义，我们有
	\begin{equation}
	\mu_i=\mu+a_i
	\end{equation}
	也就是说，第$i$个总体的均值是其一般平均与其效应的迭加。最终，我们可以将方差分析的统计模型写为
	\begin{equation}
	\begin{cases}
	y_{ij}=\mu+a_i+\epsilon_{ij},\quad i=1,\cdots,r,\ j=1,\cdots,m_i\\
	\sum_{i=1}^{r}m_i a_i=0\\
	\epsilon_{ij}\text{独立同分布}\sim N(0,\sigma^2)
	\end{cases}
	\end{equation}
	它由数据结构式、关于效应的约束条件和关于误差的假定三部分组成。我们也可以把需要检验的原假设改为$H_0:a_1=\cdots=a_r=0$。
	
%	\paragraph{检验方法}
	\section{检验方法}
	考虑从数据之间的差异下手，寻找检验的方法。
	
	我们记$A_i$水平下$m_i$个观察值的和为$y_{i\cdot}=\sum_{j=1}^{m_i}y_{ij}$，其平均值为$\bar{y}_{i\cdot}=y_{i\cdot}/m_i$。显然，平均值的结构式为
	\begin{equation}
	\bar{y}_{i\cdot}=\mu_i+\bar{\epsilon}_i=\frac{1}{m_i}\sum_{j=1}^{m_i}\epsilon_{ij}
	\end{equation}
	记所有水平下的所有观察值的和为$y_{\cdot\cdot}=\sum_{i=1}^{r}\sum_{j=1}^{m_i}y_{ij}$，其平均值记为$\bar{y}=y_{\cdot\cdot}/n$，显然其结构式为
	\begin{equation}
	\bar{y}=\mu+\bar{\epsilon}=\mu+\frac{1}{n}\sum_{i=1}^{r}\sum_{j=1}^{m_i}\epsilon_{ij}
	\end{equation}
	
	观察值与总平均的偏差可以分为两部分
	\begin{equation}
	y_{ij}-\bar{y}=(\bar{y}_{i\cdot}-\bar{y})+(y_{ij}-\bar{y}_{i\cdot})
	\end{equation}
	其中第二项为组内偏差，只反映随机误差：
	\begin{equation}
	y_{ij}-\bar{y}_{i\cdot}=(\mu_i+\epsilon_{ij})-(\mu_i+\bar{\epsilon}_{i\cdot})=\epsilon_{ij}-\bar{\epsilon}_{i\cdot}
	\end{equation}
	而第一项为组间偏差，反映随机误差和第$i$个水平效应：
	\begin{equation}
	\bar{y}_{i\cdot}-\bar{y}=(\mu_i+\bar{\epsilon}_{i\cdot})-(\mu+\bar{\epsilon})=a_i+\bar{\epsilon}_{i\cdot}-\bar{\epsilon}
	\end{equation}
	
	\paragraph{平方和分解式}
	\begin{definition}[总偏差平方和]
		我们称
		\begin{equation}
		S_T=\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y})^2
		\end{equation}
		为总偏差平方和。
	\end{definition}
	\begin{definition}[误差偏差平方和]
		我们称
		\begin{equation}
		S_e=\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot})^2
		\end{equation}
		为误差偏差平方和。
	\end{definition}
	由于组内偏差只反映随机误差，所以误差偏差平方和主要就是反映随机误差的。
	
	\begin{definition}[因子$A$的偏差平方和]
		我们称
		\begin{equation}
		S_A=\sum_{i=1}^{r}m_i(\bar{y}_{i\cdot}-\bar{y})^2
		\end{equation}
		为因子$A$的偏差平方和。
	\end{definition}
	由于组间偏差反映了随机误差和第$i$个水平效应，所以因子$A$的偏差平方和就表示了效应不同引起的数据差异。
	
	\begin{theorem}[平方和分解式]
		设总偏差平方和为$S_T$，误差偏差平方和为$S_e$，因子$A$的偏差平方和$S_A$，则有
		\begin{equation}
		S_T=S_A+S_e
		\end{equation}
		这个式子称为平方和分解式。
	\end{theorem}
	\begin{proof}
		考虑
		\begin{equation}
		\begin{aligned}
		S_T&=\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y})^2=\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot}+\bar{y}_{i\cdot}-\bar{y})^2\\
		&=\sum_{i=1}^{r}\sum_{j=1}^{m_i}\left[(y_{ij}-\bar{y}_{i\cdot})^2+(\bar{y}_{i\cdot}-\bar{y})^2+2(y_{ij}-\bar{y}_{i\cdot})(\bar{y}_{i\cdot}-\bar{y})^2\right]
		\end{aligned}
		\end{equation}
		由于最后一项中
		\begin{equation}
		\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot})=0
		\end{equation}
		故
		\begin{equation}
		S_T=S_e+S_A
		\end{equation}
		\qed
	\end{proof}

	\paragraph{检验统计量和拒绝域}
	从平方和分解式来看，$S_A$代表的就是组间效应，$S_e$代表的是随机误差，它们的和就是总的误差偏差。考虑通过比较$S_A$和$S_e$之间的大小，来看组间效应能否占有主导地位。如果$S_A$远大于$S_e$，那么我们基本上就能拒绝原假设了。
	
	根据方差分析的模型，$\epsilon_{ij}\sim N(0,\sigma^2)$互相独立，因此
	\begin{equation}
	\bar{\epsilon}\sim N\left(0,\frac{\sigma^2}{n}\right),\quad \bar{\epsilon}_{i\cdot}\sim N\left(0,\frac{\sigma^2}{m_i}\right),\quad  i=1,2,\cdots,r
	\end{equation}
	
	现在求$S_A$和$S_e$的期望值。由于
	\begin{equation}
	\frac{1}{\sigma^2}\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot})^2=\frac{1}{\sigma^2}\sum_{j=1}^{m_i}(\epsilon_{ij}-\bar{\epsilon}_{i\cdot})^2\sim\chi^2(m_i-1)
	\end{equation}
	根据卡方分布的可加性，有
	\begin{equation}
	\frac{S_e}{\sigma^2}=\sum_{i=1}^{r}\left(\frac{1}{\sigma^2}\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot})^2\right)\sim\chi^2\left(\sum_{i=1}^{r}(m_i-1)\right)=\chi^2(n-r)
	\end{equation}
	从而
	\begin{equation}
	ES_e=\sigma^2E\frac{S_e}{\sigma^2}=(n-r)\sigma^2
	\end{equation}
	
	另一方面，由于
	\begin{equation}
	\begin{aligned}
	S_A&=\sum_{i=1}^{r}m_i(\bar{y}_{i\cdot}-\bar{y})^2=\sum_{i=1}^{r}m_i(a_i+\bar{\epsilon}_{i\cdot}-\bar{\epsilon})^2\\
	&=\sum_{i=1}^{r}\left(m_ia_i^2+m_i(\bar{\epsilon}_{i\cdot}-\bar{\epsilon})^2+2m_ia_i(\bar{\epsilon}_{i\cdot}-\bar{\epsilon})\right)\\
	&=\sum_{i=1}^{r}m_i\left(a_i^2+\bar{\epsilon}_{i\cdot}^2+2a_i(\bar{\epsilon}_{i\cdot}-\bar{\epsilon})\right)-n\bar{\epsilon}
	\end{aligned}
	\end{equation}
	注意到$E\bar{\epsilon}_{i\cdot}=0$，$E\bar{\epsilon}=0$，所以
	\begin{equation}
	ES_A=\sum_{i=1}^{r}m_i(a_i^2+E\bar{\epsilon}_{i\cdot})-nE\bar{\epsilon}^2=\sum_{i=1}^{r}m_i(a_i+\frac{\sigma^2}{m_i})-n\cdot\frac{\sigma^2}{n}=\sum_{i=1}^{r}m_ia_i^2+(r-1)\sigma^2
	\end{equation}
	综合以上，可知
	\begin{equation}
	E\frac{S_e}{n-r}=\sigma^2,\quad E\frac{S_A}{r-1}=\sigma^2+\frac{1}{r-1}\sum_{i=1}^{r}m_ia_i^2\geq\sigma^2
	\end{equation}
	如果原假设为真，那么$S_A$中的水平$i$的效应$a_i$应当全部为零。这时，就有
	\begin{equation}
	E\frac{S_A}{r-1}=\sigma^2
	\end{equation}
	从上面可以看出，$S_A/(r-1)$的期望总是比$S_e/(n-r)$要大的，如果原假设为真，组间效应没有，那么$S_A/(r-1)$和$S_e/(n-r)$的期望就是相等的。因此，我们可以选择
	\begin{equation}
	F=\frac{S_A/(r-1)}{S_e(n-r)}
	\end{equation}
	作为检验统计量。如果$F$的观察值过大，就说明很有可能组间效应发挥了作用，这时就需要推翻统计量了。
	
	\paragraph{确定临界值}
	上面已经证明过$S_e/\sigma^2\sim\chi^2(n-r)$。当原命题为真时，$S_A/\sigma^2\sim\chi^2(r-1)$，且与$S_e$独立。于是统计量$F\sim F(r-1,n-r)$。由此，根据给定的显著性水平$\alpha$，可以确定拒绝域$W=\{F|F\geq c\}$，使得$P(F\geq c)\leq\alpha$。至此我们完成了检验流程。
	
	在统计中，需要计算的量主要有：总样本数$n$，因子$A$的水平数目$r$，总平均$\bar{y}$，各水平平均$\bar{y}_{i\cdot}$；以及由此计算总偏差平方和
	\begin{equation}
	S_T=\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y})^2=\sum_{i=1}^{r}\sum_{j=1}^{m_i}y_{ij}^2-\frac{y_{\cdot\cdot}^2}{n}
	\end{equation}
	因子$A$的偏差平方和
	\begin{equation}
	S_A=\sum_{i=1}^{r}m_i(\bar{y}_{i\cdot}-\bar{y})^2=\sum_{i=1}^{r}\frac{y_{i\cdot}^2}{m_i}-\frac{y_{\cdot\cdot}^2}{n}
	\end{equation}
	误差偏差平方和
	\begin{equation}
	S_e=S_T-S_A
	\end{equation}
	还有最后的$F$。把这些数据列成表格，然后根据给定的显著性水平$\alpha$，查$F$分布表得到自由度为$r-1$和$n-r$的$F$分布的分布函数值，从而判定是否落入拒绝域。
	
	\begin{table}[H]
		\begin{tabular}{rlcccc}
			\hline
			&来源&平方和&自由度&均方和&$F$比\\
			\hline
			$A$&水平差异&$S_A$&$f_A=r-1$&$V_A=S_A/f_A$&$F=V_A/V_e$\\
			$e$&随机误差&$S_e$&$f_e=n-r$&$V_e=S_e/f_e$&\\
			$T$&总误差&$S_T$&$f_T=n-1$&&\\
			\hline
		\end{tabular}
	\centering
	\caption{单因子方差分析表}
	\end{table}
	
	\section{效应与误差方差的估计}
	在单因子方差分析的模型中，$a_i$和$\mu$是常数，而$\epsilon_{ij}\sim N(0,\sigma^2)$，因而$y_{ij}\sim N(\mu+a_i,\sigma^2)$独立同分布。我们可以用极大似然估计的方法，来估计参数$a_i$和$\sigma^2$。
	
	考虑似然函数
	\begin{equation}
	L(\mu,a_1,\cdots,a_r,\sigma^2)=\prod_{i=1}^{r}\prod_{j=1}^{m_i}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(y_{ij}-\mu-a_i)^2}
	\end{equation}
	为了求其极大值，我们同前面一样，取对数，然后令其对各偏导数都为零：
	\begin{equation}
	l(\mu,a_1,\cdots,a_r,\sigma^2)=-\frac{n}{2}\ln (2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\mu-a_i)^2
	\end{equation}
	似然方程：
	\begin{equation}
	\begin{aligned}
	\frac{\partial l}{\partial \mu}&=\frac{1}{\sigma^2}\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\mu-a_i)=0\\
	\frac{\partial l}{\partial a_i}&=\frac{1}{\sigma^2}\sum_{j=1}^{m_i}(y_{ij}-\mu-a_i)=0\\
	\frac{\partial l}{\partial \sigma^2}&=-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\mu-a_i)^2=0
	\end{aligned}
	\end{equation}
	并且还有一个约束条件
	\begin{equation}
	\sum_{i=1}^{r}m_ia_i=0
	\end{equation}
	由第一个似然方程和约束条件联立，可以得到
	\begin{equation}
	\hat{\mu}=\frac{1}{n}\sum_{i=1}^{r}\sum_{j=1}^{m_i}y_{ij}=\bar{y}
	\end{equation}
	把$\hat{\mu}$代入第二个似然方程中，得到
	\begin{equation}
	\hat{a_i}=\frac{1}{m_i}\left(\sum_{j=1}^{m_i}y_{ij}-m_i\bar{y}\right)=\bar{y}_{i\cdot}-\bar{y},\quad i=1,\cdots,r
	\end{equation}
	因此，$\mu_i=\mu+a_i$的极大似然估计$MLE$为
	\begin{equation}
	\hat{\mu_i}=\bar{y}_{i\cdot}
	\end{equation}
	把$\hat{\mu}$和$\hat{a_i}$代入第三个似然方程中，得到
	\begin{equation}
	\hat{\sigma}_M^2=\frac{1}{n}\sum_{i=1}^{r}\sum_{j=1}^{m_i}(y_{ij}-\bar{y}_{i\cdot})^2=\frac{1}{n}\sum_{i=1}^{r}\sum_{j=1}^{m_i}\epsilon_{ij}^2=\frac{S_e}{n}
	\end{equation}
	
	我们知道$E\bar{y}=\mu$，$E\bar{y}_{i\cdot}=\mu_i=\mu+a_i$，所以$E\hat{a_i}=a_i$，也就是说我们求得的$\hat{\mu}$以及$\hat{a_i}$是无偏估计。但是，由于前面已经求得$ES_e=(n-r)\sigma^2$，因此这里的$\hat{\sigma}_{M}^{2}$不是无偏估计。所以，更常用的无偏估计是
	\begin{equation}
	\hat{\sigma}^2=\frac{S_e}{n-r}=\frac{n}{n-r}\sigma_{M}^2
	\end{equation}
	
	接下来，我们利用枢轴量法来构造$\mu_i$的置信区间。从$\mu_i$的点估计$\bar{y}_{i\cdot}$出发，有$\bar{y}_{i\cdot}\sim N(\mu_i,\sigma^2/m_i)$，又有$S_e/\sigma^2\sim\chi^2(n-r)$，以及$\bar{y}_{i\cdot}$与$S_e$独立，因此可以构造一个服从自由度为$n-r$的$t$分布的枢轴量
	\begin{equation}
	t_i=\left.\left(\frac{\bar{y}_{i\cdot}-\mu_i}{\sigma/\sqrt{m_i}}\right)\right/ \sqrt{\frac{S_e}{\sigma^2(n-r)}}=\frac{\bar{y}_{i\cdot}-\mu_i}{\hat{\sigma}/\sqrt{m_i}}\sim t(n-r)
	\end{equation}
	
	由此，查表找到面积为$1-\alpha$的区间位置$[-t_{1-\frac{\alpha}{2}}(n-r),t_{1-\frac{\alpha}{2}}(n-r)]$，从而得到$\mu_i$的置信水平为$1-\alpha$的置信区间为
	\begin{equation}
	\left[\bar{y}_{i\cdot}-t_{1-\frac{\alpha}{2}}(n-r)\frac{\hat{\sigma}}{\sqrt{m_i}},\bar{y}_{i\cdot}+t_{1-\frac{\alpha}{2}}(n-r)\frac{\hat{\sigma}}{\sqrt{m_i}}\right]
	\end{equation}
	
	\section{多重比较}
	在方差分析中，如果经过$F$检验拒绝原假设，表明因子$A$的效应是显著的，也就是$r$各水平对应的指标均值$\mu_i$不全相等。但这并不一定说两两之间都不等了，也有可能只有水平的$\mu_i$与其他水平的不同。
	
	我们需要确定哪些水平的确是有差异的，哪些水平是没有差异的。同时比较任意两个水平均值间有无显著差异的问题叫做多重比较。我们以显著性水平$\alpha$，同时检验以下$C_r^2=r(r-1)$个假设：
	\begin{equation}
	H_0^{ij}:\mu_i=\mu_j,\quad i<j,\ i,j=1,\cdots,r
	\end{equation}
	显然，如果$H_0^{ij}$为真，那么$|\bar{y}_{i\cdot}-\bar{y}_{j\cdot}|$不应当过大，因此拒绝域应当是这样的形式：
	\begin{equation}
	W=\bigcup_{i<j}\{|\bar{y}_{i\cdot}-\bar{y}_{j\cdot}>c'|\}
	\end{equation}
	意思是对于水平$j$而言，前面所有的水平都不能跟它相差过大。如果给定了显著性水平$\alpha$，就要求在$C_r^2$个假设$H_0^{ij}$为真时，有$P(W)=\alpha$。
	
	接下来的任务就是确定临界值$c$。在这里，假设各个水平都取了同样多的独立样本，也就是$m_i=m,\ i=1,\cdots,r$。样本均值$\bar{y}_{i\cdot}\sim N(\mu_i,\sigma^2/m)$，而且$\bar{y}_{i\cdot}$与$S_e$亦独立。用$\hat{\sigma}^2=S_e/(n-r)$去估计$\sigma^2$时，有
	\begin{equation}
	t_i=\frac{\bar{y}_{i\cdot}-\mu_i}{\hat{\sigma}/\sqrt{m}}\sim t(n-r)=t(f_e)
	\end{equation}
	那么当一切$H_0^{ij}$为真时，有
	\begin{equation}
	\begin{aligned}
	P(W)&=P\left(\bigcup_{i<j}\{|\bar{y}_{i\cdot}-\bar{y}_{j\cdot}|>c'\}\right)=P\left(\max_{i<j}|\bar{y}_{i\cdot}-\bar{y}_{j\cdot}|>c\right)\\
	&=P\left(\max_{i<j}\left|\frac{\bar{y}_{i\cdot}-\bar{y}_{j\cdot}}{\hat{\sigma}/\sqrt{m}}\right|>\frac{c}{\hat{\sigma}/\sqrt{m}}\right)\\
	&=P\left(\max_{i<j}\left|\frac{(\bar{y}_{i\cdot}-\mu_i)-(\bar{y}_{j\cdot}-\mu_j)}{\hat{\sigma}/\sqrt{m}}\right|>\frac{c}{\hat{\sigma}/\sqrt{m}}\right),\quad \text{注意在}H_0^{ij}\text{为真时，}\mu_i=\mu_j\\
	&=P\left(\max_{i}\left(\frac{\bar{y}_{i\cdot}-\mu_i}{\hat{\sigma}/\sqrt{m}}\right)-\min_{j}\left(\frac{\bar{y}_{j\cdot}-\mu_j}{\hat{\sigma}/\sqrt{m}}\right)>\frac{c}{\hat{\sigma}/\sqrt{m}}\right)\\
	&=P\left(t_{(r)}-t_{(1)}>\frac{c}{\hat{\sigma}/\sqrt{m}}\right)=\alpha
	\end{aligned}
	\end{equation}
	这里的$t_{(r)}$表示来自$t(n-r)$的容量为$r$的样本的最大次序统计量；相应地$t_{(1)}$是最小次序统计量。
	
	记$q(r,f_e)=t_{(r)}-t_{(1)}$，其中$f_e=n-r$是自由度，那么$q(r,f_e)$就是样本极差，称作$t$化极差变量，其分布与自由度$f_e$以及因子的水平数$r$有关，其数值解可查表。最终，我们有
	\begin{equation}
	c=q_{1-\alpha}(r,f_e)\frac{\hat{\sigma}}{\sqrt{m}}
	\end{equation}
	
	至此，我们已经给出了临界值$c$。在检验时，按照$j$从小到大的原则，同时考察$H_0^{ij},\ i=1,\cdots,j-1$。如果$H_0^{ij},\quad i=1,\cdots,j-1$全部为真，那么就说明$\mu_j$与前面的$\mu_1=\cdots=\mu_{j-1}$全部相等；反之，如果在当前这个水平$j$处，我们发现统计量$t_{(j)}-t_{(1)}$比临界值要大，那么就说明当前这个$\mu_j$是有差异的那个水平。那么，在以后检验第$j+1$及更后面的水平时，就把该有差异的值剔除出去即可。
	
	\section{方差齐性检验}
	在方差分析中要求所涉及的$r$个水平的正态总体方差相等，这一要求称为方差齐性。但是，这是需要检验的，并不天然成立。这里讨论从$r$个正态总体$N(\mu_i,\sigma_i^2)$中，各抽取相等数量$m$个样本$y_{i1},\cdots,y_{im}$的情形。设样本均值和样本方差为
	\begin{equation}
	\bar{y}_{i}=\frac{1}{m}\sum_{j=1}^{m}y_{ij},\quad s_i^2=\frac{1}{m-1}\sum_{j=1}^m (y_{ij}-\bar{y}_{i})^2
	\end{equation}
	我们需要检验假设$H_0:\sigma_1^2=\cdots=\sigma_r^2$，相应地备择假设就是这些方差不全相等。我们采用最大$F$检验(Hartley检验)的方法，使用的统计量是
	\begin{equation}
	F_{max}=\frac{\max\{s_1^2,\cdots,s_r^2\}}{\min\{s_1^2,\cdots,s_r^2\}}
	\end{equation}
	它的拒绝域是$W=\{F_{max}\geq c\}$。也就是说，如果样本方差最大值和最小值偏离过大了，就要考虑拒绝原假设了。临界值由$c=F_{max,1-\alpha}(r,m-1)$给出，数值解要查表。
	
	除此之外，还常用最大方差检验(Cochran检验)，以及Bartlett检验等方法。Bartlett检验还可以用在样本容量不相等的场合。
	